影响未来10年的黑科技:DNA数据存储吸引微软、Illumina等15家结盟
数字生命健康产业创新服务
基因慧
5G和量子计算等计算技术快速发展同时,有一个问题日益严重,到2040年数据存储可能不够用了——亟需信息密度更高的存储介质,例如比硬盘存储信息密度高效一百万倍的DNA,这吸引到微软联合Illumina等15家机构在11月成立DNA数据存储联盟。DNA数据存储,这项黑科技已经被研究了50多年,近年得到加速,将影响未来10年的IT和BT格局。
文章 | 基因慧 编辑 | Barney 关键词 | DNA数据存储图1(来源/YOSHI SODEOKA)
2011年2月16日,一个略显阴沉的星期三,在德国汉堡市的一家旅馆酒吧里,来自欧洲生物信息研究所的Nick Goldman与他的朋友正在为一个问题讨论得面红耳赤,结束后,大家都感到非常沮丧。是什么问题呢?
如何负担起在世界各地的海量基因组数据昂贵的存储?而且,存储可能很快就不够用了。
Goldman记得那天,他们甚至开始对“科幻的替代品”DNA开起开玩笑:为什么我们不用DNA来存储DNA信息呢?
这在当时只是一个玩笑话,后来就不只是玩笑,而是——科幻照进现实。
随着互联网以及5G等技术的发展,全球37亿互联网用户每天产生约数亿GB级数据。根据Nature报道,2020年,全球数字信息容量估计将达到44万亿GB,是2013年的10倍;到2040年,如果所有内容都实现即时访问,存储(基于闪存)将消耗的微芯片级硅是预期供应量的10–100倍。
图2:数据存储的能力远远赶不上数据生产的速度
(来源/Twist, IDC)
因为硅存储信息的密度有限,也就不难理解为什么目前数据的永久性存储还是用老式的磁带。虽然磁带存储的信息密度比硬盘大很多,但有另外两个问题:读起来非常慢,而且特别耗电。
美国计算神经科学家David Markowitz表示,一个EB(百万GB)级别数据中心如果使用磁带,每年的建设和维护费用将需要1亿美元,以及耗电千万度级别,因此磁带存储不可持续。
那么,数据存储的未来将是什么?解决方案是DNA数据存储。
从物理层面,DNA是宇宙中信息密度最高的已知存储介质,信息密度是硬盘的一百万倍,是闪存的一千倍,单位耗电量仅为亿分之一。此外,由于DNA的稳定性,目前从70万年前的古DNA(2013年,马基因组)中仍可进行测序解读,其存储时效远非其他介质可比拟。
图3:存储介质的对比
(来源/doi:10.1038/537022a)
David Markowitz认为,如果用DNA来存储数据,全世界的存储需求用1千克的DNA就可以满足(信息封装密度以大肠杆菌的基因为标准)。
图4:DNA数据存储研究的主要文献发布时间表
(来源/doi:10.1038/s41576-019-0125-3)
DNA数据存储的概念可以追溯到1960年代中期。当时,科学家Norbert Wiener和Mikhail Neiman首次发表了有关“遗传内存(genetic memory)”的概念。但当时DNA测序和合成技术仍处于起步阶段。直到20多年后,DNA数据存储的概念才正式得以被知晓。
1988年,艺术家Joe Davis与哈佛大学研究人员合作,首次将数字1和0映射到DNA的四个碱基上,并插入大肠杆菌的DNA序列,仅编码35位(bits)。大约在同一时间的1986年,Richard Dawkins在书籍《盲人钟表匠》 中也提到了这一想法。
后来Joe Davis加入了哈佛大学知名遗传学家George Church的实验室,在2011年将DNA数据存储的概念引入世界:把一本52,000字的书编码到数千个DNA片段中。合作者包括加利福尼亚大学洛杉矶分校的Sri Kosuri和位于约翰·霍普金斯大学的Yuan Gao。
图5:华盛顿大学和微软进行DNA数据存储自动化的概念验证的装置及原理(来源/Valuewalk)
与此同时,EBI(欧洲生物信息研究所)的Nick Goldman和Ewan Birney在2011年德国汉堡市的酒吧餐巾纸上讨论完后,把DNA数据存储的想法带到了实验室,两年后宣布成功地使用DNA编码了五个文件,容量739 KB,是有史以来最大的DNA档案;直到2016年7月,微软和华盛顿大学的研究人员声称已跃升至200 MB(其中包括音乐和视频)。
DNA到底怎么存储数据呢?关键步骤有两个:编码和解码。
图6:通过DNA合成存储DNA基础逻辑
DNA通过密码子合成氨基酸,信息通过二进制转化为碱基(来源/digitaltrends)
先说编码。
在计算机中,任何信息以1和0的形式存储。而在DNA中,遗传信息(通常)以四种碱基腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)且按规则在生物体内排序。将0和1以不同规则(见下图)映射A/T/C/G,即可形成序列存储到DNA中。
图7:DNA数据存储使用的四种转码方法举例
(来源/doi: 10.1093/gigascience/giz075)
再说解码。
DNA通过PCR扩增(体外),可以按照密码子表规则(三个相邻碱基编码一个氨基酸)翻译成蛋白质(体内),因此可存储在体内或体外并进行复制(产生拷贝)。如果在生物体内,通过基因测序即可从生物组织或体液中读取DNA序列信息,再通过原始映射规则解码出原始存储的字节信息。
具体怎么操作?
图8:DNA数据存储和解读的流程
(来源/Twist等)
首先,采用计算机算法将信息字节转换成为DNA序列;然后机器合成DNA序列(编写), 产生每个序列的多个物理拷贝。以磷酰胺为基础的固相柱上合成(低通量)或固相介质上阵列合成(高通量)。合成后的的 DNA 材料可以克隆并存储在生物细胞内(体内)或者体外(更常见)。
其次,通过检索选择目标DNA再使用映射到编码过程中所生成特定数据项的引物和PCR扩增,获得目标DNA,再通过测序仪获取DNA对应的序列。
最后,通过映射规则将序列转码成原始的0和1字节信息。
目前,DNA数据存储处于实验研究阶段。在成熟之前面临以下几个主要的问题。
图9:DNA数据存储过程详解
(来源/doi:10.1038/s41467-019-10978-4)
首先,要确保信息不失真。
严格意义上,DNA数据存储没有纠错功能,需要依靠每个序列多个副本(拷贝)所提供的冗余信息来校正。
在2011年,George Church和Gao Yuan合作的659KB DNA数据存储中,在序列排序后发现了22个错误。而在同时期,欧洲生物信息研究所确保每25个碱基片段都有四个版本的情况下,仍然在25个碱基序列中发现了2个错误。
为提高准确率,2017年7月,George Church团队采用CRISPR 编辑技术将人类手的图像记录到大肠杆菌基因组中,并以90%以上的准确率读取了该图像。
其次,要实现快速读取。
使用标准测序方法,检测任何一条数据时都需要读取每个DNA字符串,相比传统计算机存储可以随机访问,显得笨重地多。
针对这个问题,2017年3月,科学家创造了一种称为”DNA喷泉“的算法,可以从特定密度(每克DNA存储215 PB)相对完美地检索信息。而Catalog公司的方法是将数据转换为合成聚合物的固体颗粒。访问数据时,将其沉淀和再水化(rehydrate),但这个过程仍然需要至少几个小时。
再者,降低成本提高可及性。
DNA数据存储的传统思路是依赖于每次合成新的DNA分子,然后将字节序列映射到DNA的碱基对序列。这需要制造足够的DNA分子来存储想要的信息,过程程缓慢且昂贵。
在上述EBI的试验中,花费12,660美元,其中98%是合成DNA的成本。
为改善这个问题,Catalog公司的方法是将合成过程与编码过程分离。即,只生成大量的几个“预制分子”(使其便宜得多),然后通过从预制分子中产生大量多样性来编码信息。类比硬盘存储的话,相当大量生产空白硬盘驱动器,然后在需要时用编码信息填充它。即便如此,仍需要革新DNA合成的过程,目前主要的生产方法仍然是延续近30年的化学过程,需要至少花费400秒才能添加每个碱基。
最后,实现全自动化使其易用。
要使得DNA数据储存成为广泛应用的商业化产品,需要完成合成、存储和测序等整个过程的自动化。
2019年,华盛顿大学和微软发布第一个处理5个字节(“hello”)的数据的端到端存储设备(见图5),主要的限制因素是基于液体DNA的存储。未来有望基于纳米和微流体,例如“Puddle“微流体平台(Willsey等,2019年)和玻璃载体脱水DNA斑点(Newman等,2019)。另一种思路是基于互补金属氧化物半导体(CMOS)技术,Twist 和Roswell正在开发相关设备。
前景和趋势
图10:DNA数据存储的兴起
(来源/Forbes)
得益于高通量DNA测序和合成的快速发展,使得基于DNA的数据存储技术从科幻逐渐变成现实,尤其体现在其优异的存储密度和稳定性上,使其成为碳基(相比当前的硅基)档案的巨大潜力。
随着2007年Illumina发布下一代高通量测序仪,2015年华大发布国产NGS测序仪,分别从不同角度推进高通量测序技术应用的普及,达到每GB 200美元(人)的成本,推动全球超过10个国家进行十万人级基因队列研究。
正如上文所说,DNA数据存储的核心成本是DNA合成。这方面已得到一定的推进。在2019年初,DNA Script宣布通过酶促合成成功生产第一个200个核苷酸长的DNA片段。Twist Bioscience表示可提供长达300个核苷酸的大量无错误DNA片段。
除了DNA测序和DNA合成,从结构上讲,DNA分子不能仅仅应用于现有的芯片架构,必须通过软件和物理互连来优化和解决硅到DNA的接口,以及标准化DNA数据格式,简化工作流程,以实现跨平台存储并嵌入现有数据架构的端对端解决解决方案。
图11:DNA数据存储的投资形式
(来源/doi:10.1016/j.biotechadv.2020.107639)
风险投资关注DNA数据存储开始不久。从数据上可以看到2010年起缓慢提高关注度(如上图),在2019年(基于前9个月的估计数据)有所下降。而目前DNA数据存储企业投入关键领域的DNA合成和设备仅占到两成。同时,产业链上下游协作已引起重视,11月,微软联合产学研共15家机构结成DNA数据存储联盟。(另外14家包括Illumina、Twist、Western Digital、Ansa Biotechnologies、Catalog、The Claude Nobs Foundation、DNA Script、EPFL、ETH Zurich、Interuniversity Microelectronics Centre、Iridia、Molecular Assemblies、Molecular Information Systems Lab)
基因慧认为,DNA数据存储市场将大于DNA测序本身。国内公开报道的仅见华大和华为投入相关研究。预计第一批商业应用市场,包括图像备份或流媒体服务等。
数字革命改变了人类与数据的关系,使社会进入信息时代,数据也成为我国新时代的市场元素。DNA作为自然的礼物,正在从生命密码的解读,迈入基因治疗、基因合成和DNA存储等更深层次和全方位的应用。但类似基因编辑的事件教训,数据隐私安全和生命伦理在发展过程中需要高度重视。
目前尽管技术上有很大不完美,但随着Twist Bioscience、DNA Script、Catalog、BGI等研究型企业的加入以及类似微软、华为等跨学科巨头的投入,未来可以预见DNA数据存储从技术转化为产品。基因慧预计,未来5-10年将有重大突破,20年内将改变目前的半导体领域格局。
10年前在德国旅馆酒吧里沮丧的Nick Goldman,最近刷新了对未来的期待,在DNA数据存储完全普遍之前,至少需要十万倍数量级的改善。而我们知道短短20年,基因测序已经得到了百万倍数量级的改善。
碳基取代硅基存储万物信息,未来曲折而乐观。
注:以上为编译材料,仅供参考,更多信息请参考以下文献及原始出处
参考信息:
1.Randolph Lopez et. al., DNA assembly for nanopore data storage readout, Nat Commun, 2019
2. Zhi Ping et.al., Carbon-based archiving: current progress and future prospects of DNA-based data storage, Gigascience, 2019
3. Philip M.Stanley et.al., Decoding DNA data storage for investment, Biotechnology Advances,2020
4. https://nuclineers.com/dna-data-storage
5. https://www.digitaltrends.com/cool-tech/dna-data-catalog-startup
6.https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496
7. https://www.nanalyze.com/2017/01/dna-data-storage-technology-available
8.https://www.forbes.com/sites/johncumbers/2019/08/03/dna-data-storage-is-about-to-go-viral/?sh=3ac873b77721
9.https://www.scientificamerican.com/article/dna-data-storage-is-closer-than-you-think
10.https://www.technologyreview.com/2017/05/22/68387/microsoft-has-a-plan-to-add-dna-data-storage-to-its-cloud
11.https://blocksandfiles.com/2020/03/18/catalog-cdna-data-storage-economically-feasible
12.https://www.geneticsdigest.com/the-role-of-dna-data-storage-in-health-and-technology/
13.https://www.nanalyze.com/2017/01/dna-data-storage-technology-available/
14.http://www.ssbt.org.cn/upload/20191212153656_562.pdf
15.https://www.nature.com/articles/s41576-019-0125-3
推荐阅读月
【声明】为传播科学信息,推动基因及数字生命健康产学研连接,我们秉持中立、专业、赋能的理念收集、分析或发布信息。但由于时效性及行业特殊性,所刊登内容仅供研究参考,不作为决策依据;本文相关信息不代表基因慧机构的观点;“基因慧”刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎个人及机构投稿及合作。
关于基因慧
基因慧是数字生命健康领域创新服务平台。团队深耕行业十余年,从行研咨询、媒体资讯、产业平台等角度提供优质内容。作为国发改产业研究合作单位,基因慧联合多家头部机构连续四年发布公开的行研报告,为产业园、投资机构、头部企业及政府提供咨询规划服务,参与组织发布行业共识和标准,致力于建设数字生命健康产业数字化平台,服务生命科技创新创业。
☆ 发布产业大数据平台优脉通YourMap
☆ 中国遗传学会生物产业促进委员会委员
☆ 发布数十份基因及数字生命健康领域行研报告
☆ 主办数字健康私董会、大湾区生命健康创新论坛
☆ 广东省精准医学应用学会政策研究应用分会常务委员
▼ 点击“阅读原文”,查看精选文章